查看原文
其他

科研速递 | 黄建伟教授团队在2022年国际人工智能联合会议上发表文章

The following article is from 计算机视觉的小书童 Author Chenyou Fan




摘要

近日,黄建伟教授团队题为“Private Semi-Supervised Federated Learning”的文章被第31届国际人工智能联合会议(the 31st International Joint Conference on Artificial Intelligence and the 25th European Conference on Artificial Intelligence (IJCAI-ECAI))接收。




期刊介绍



国际人工智能联合会议(IJCAI)是人工智能领域中顶级学术会议之一,是CCF A类会议,第一届大会于1969年在美国加利福尼亚举办,之后每两年开一次。从2016年开始IJCAI已经变成每年举行一次。会议论文接受率仅为15%。


研究背景



本文的研究对象是两类异构数据源。为了简化讨论,本文设定第一类数据源仅为有标签数据(labeled data),称为有标签源;第二类数据源仅为无标签数据(unlabeled data),称为无标签源 (该设定可以自然地推广到一般场景,各个数据源有有标签数据和/或无标签数据)。 该设定的适用场景广泛。例如,1)公司拥有少量的员工人脸和身份数据,而网络上有大量无身份标签的人脸数据。如何通过安全隐私的方法,使用网络上的人脸协助公司的数据进行人脸识别模型训练?2)情感分析(sentiment analysis)软件获取了用户少量的微博推文,同时微博上有大量其他用户的无情感标注推文,如何利用无标签推文来自动学习用户的文本情感标签?


本文提出一种基于生成网络的方法,联合少量标签源,与大量无标签源,联合训练机器学习模型。该方法可以充分利用大量的无标签数据协助进行训练,实现有效的分布式半监督学习。

图1:联邦半监督学习的示意图


回顾半监督学习的定义,半监督学习研究利用未标记的数据来强化训练模型。传统的中心化半监督学习通过数据分布假设[2],来学习数据的分类边界,也即相同类别的数据应该分布的更紧致,而不同类别的数据应该更加远离。该假设同样成立于深度学习,并且发展出数据增强(data augmentation), 伪标签技术(pseudo labeling), 数据混合增强技术MixUp [3,4] 等。其中,数据增强通过生成大量相同标签数据来增强数据集;伪标签技术通过使用训练中的模型,给无标签数据生成伪标签并进一步用于训练;数据混合增强MixUp、MixMatch等方法通过对两个数据和对应标签的分别叠加,来生成混合数据及对应的混合标签,用作增强的数据来提高模型学习类别边界的能力。


值得注意的是,上述方法均为中心化的半监督学习方法:所有有标签、无标签数据都存储在同一个服务器,任意两个数据之间可以进行增强和混合。当我们讨论联邦(分布式)学习的时候,上述假设将不存在。在联邦学习的设定下,任意源之间的数据(无论有无标签),都无法直接进行数据混合,从而保障数据的本地性和不被泄露。


本文的工作要解决如何利用联邦学习进行模型的本地训练和全局融合,实现有标签和无标签数据的混合增强,使得标签源和无标签源能够共享数据空间进行联合模型训练,同时保护个人数据不被泄露。同时我们提出一种严格的隐私保护机制,防止标签源的数据泄漏到其他源上。


研究方法



通过问题定义,本文需要解决如下三个难点。


1)如何在不传输数据的情况下,实现同时利用不同数据源上的有标签、无标签数据;2)如何通过联邦学习框架来实现上述过程,即通过模型的传递和聚合(model fusion) 来联合学习一个分类能力更强的模型;3)如何保障数据隐私。


本文设计了一种基于生成式(generative)模型的数据混合增强方法,来实现分布数据源的利用。我们设立分类模型(Classifier) F,数据生成模型(Generator) G,生成数据的判别模型(Discriminator) D。F用于实际的半监督学习分类任务,G用于数据的生成任务, D用于G的联合训练。训练的目的是,通过各源的F、G的互相提高训练并融合,不断迭代提高分类模型F的任务精度,同时提高生成模型G的数据真实度。



2.1 优化目标函数


对于有标签源,本文设定该源上的学习目标如下


+ 上式第二行:通过抽样有标签数据,得到x1与其真实标签p1。同时,我们抽样选取一个类别标签p2,一个随机噪声向量z。

+上式第三行,通过G函数,根据噪声z、输入数据x1,标签p2及混合程度λ,学习生成混合数据, 该数据具有λ份额的数据类别p1,1-λ 份额的p2数据类别。

+ 上式第四行:我们使用F对进行分类,得到的p_hat 应当满足 λ p1 + (1-λ) p2. 该条件作为优化目标,使用分类的交叉熵CE(cross-entropy)损失函数进行模型端到端的优化(上式第一行)。


对于图像分类来说,G的模型设计如下:

图2:混合图像生成模型的架构


G模型包含G1-G3 3个部分。其中

1) G1 实现对真实数据x1的编码-解码,同时使用重构损失(reconstruction)正则化模型,如第一行的鸟类图片。

2) G2 实现图片的生成,从随机噪声z和类别标签p,生成图片,如第二行一匹马的图片。

3) G3实现G1、G2的图像混合,通过对其中间对特征图谱的叠加来完成。例如,上图中G3对鸟和马,按照 λ 与 1-λ 的比例进行混合,得到第三行的混合图片,既具有鸟类特征又具有马的特征。


对于无标签源来说,使用与有标签源类似的优化方法。区别在于,由于从无标签源抽取的数据没有真实的标签,我们先用现有的F模型生成伪标签,再进行图像生成与混合增强。



2.2 其他优化学习目标函数


本文为生成模型G添加与判别器D的对抗学习优化过程。

其中,针对图2中的G2子网络,通过使用GAN的经典G,D轮流迭代的方法,同时提高G的生成水平与D的鉴别水平,更好地生成满足真实数据分布的数据。优化G的生成数据,能够通过前文所述的步骤,进一步为F的混合数据增强提供数据从而优化分类模型F,达到F,G,D联合提高的优化目标。


同时我们添加重构损失(reconstruction loss)

针对图2中G1子网络,提供数据编码-解码重构的重构损失,进一步正则化模型训练。


通过联邦学习方法,我们可以并行的在各个数据源进行上述模型训练,并上传F,G,D模型到中央结点,进行模型融合后再分配给各个数据源进行新的一轮数据混合增强的训练,不断迭代提高性能,直到收敛。我们将提出的方法称为(Federated Semi-Supervised Learning) FedSSL。


差分隐私保护



在联邦学习的设定下,往往各数据源属于不同的所有者,所以保护各方的数据隐私十分重要。对我们的设定来说,少量的有标签源的标签数据需要防止泄露。而我们使用的GAN模型,存在 G模型可能会重建出训练样本与其对应的标签,导致原有标签数据泄露的问题。例如,如果A的人脸图像用于了该有标签源的训练,通过联邦学习模型融合之后,另一个数据源拥有了重建A人脸的模型G,通过不断抽样生成,可能会导致A的人脸被重建。


为了防止上述隐私泄露的问题,本文提出一种全新的差分隐私 (Differential Privacy) 学习方式,来训练联邦半监督学习。其基本思想是,建立一个隐私损失总体值, 然后顺序的在有标签源上进行训练,之后再并行的在无标签源上训练。每一次使用有标签数据训练的时候,对数据加入随机高斯噪声N (0, s^2)。该有噪声的训练过程,可以提供一个使用该有标签数据训练导致的隐私损失的上界[5]。在训练过程中,达到隐私损失的总体值之后,立刻停止继续使用有标签数据进行训练。下图显示了,加入高斯噪声之后训练的生成图像(第三行)与真实数据(第一行)和不加高斯噪声的生成图像(第二行)的对比。


本文在有标签数据源上进行顺序训练的意义是,差分隐私损失具有可叠加性,通过牺牲一定的并行度而采用顺序训练,可以更准确的计算隐私损失的上界。算法的框架如下


我们将上述有隐私保护的方法称为(Federated Semi-Supervised Learning with Differential Privacy) FedSSL-DP。


研究结果



本文在 MNIST,CIFAR-10, Sent140数据集上进行了图像数据和文本数据的半监督学习实验。我们设定有标签源、无标签源各有 1/2/3 和3/6/9,分别测试半监督学习的表现。同时,我们假设仅仅使用极少量的标签数据,如MNIST上我们只用0.5%(300个),0.25%(150个)和0.17%(100个)数据,其他的全部设置为无标签数据。

本文得到如下结论:

1)我们的方法显著优于其他方法,在不同的有标签数据量、无标签数据量和设备数量的情况下,取得了 5-20%的准确率提升。同时FedSSL-DP,也即加入差分隐私保护后的方法,并没有损失较大的性能,仅有2-3%的准确度下降,高于其他方法。


2) 我们提出的方法可以充分利用仅有的极少量的标签。在100个数据分配到3个有标签源(每个源仅有33个数据左右,每一个0-9数字类仅有3个标签数据!)的时候,我们提出的 FedSSL 方法及差分隐私版本的 FedSSL-DP方法能够保证模型训练的收敛及合理的预测结果(准确率96.9%),而其他的现有方法均无法收敛。


3)我们提出的方法对non-IID数据分布鲁棒。当我们进一步把上述极端情况加大难度,每一个源33个数据,上面的数据标签的类别不完整且不重合,也即3个有标签源上的类别分别是数字(0,3,6,9),(1,4,7),(2,5,8)。在数据不足、数据分布不均衡的情况下,我们的方法仍然能够收敛,虽然精度下降到准确率55.5%。其他方法均无法收敛。


结论



本文提出了一种有效的联邦半监督学习方法,能够充分利用分布式的有标签数据源和无标签数据源进行机器模型的分布式训练。我们通过使用生成式模型的方法,建立各个数据源共享的数据空间,进行有标签、无标签数据的混合增强,提高半监督学习性能。该方法能够保护数据的本地性,同时能够加入隐私保护机制防止数据泄露。在数据集上测试验证,我们的方法在数据紧缺、数据分布不均匀的情况下仍然能够提供模型训练收敛和理想的模型表现。


作者简介



第一作者:范晨悠博士


本文第一作者为范晨悠博士,范博士毕业于美国印第安纳大学,并在美国谷歌等IT公司有三年研发工程师经历,他的主要研究方向包括深度学习,计算机视觉,少样本学习,联邦学习等。他以第一作者在机器学习和计算机视觉会议发表多篇研究文章,包括CVPR, ACM MM,AAAI, KDD, NeurIPS。


第二作者:胡君杰博士


胡君杰博士现为深圳市人工智能与机器人研究院助理研究员, 深圳市孔雀人才、深龙英才。胡博士于2020年毕业于日本东北大学,研究方向为机器人感知,模式识别,计算机视觉。


通讯作者:黄建伟教授

黄建伟教授现任香港中文大学(深圳)校长讲座教授,理工学院副院长,兼任深圳市人工智能与机器人研究院副院长和群体智能研究中心主任。他是深圳市鹏城特聘教授,IEEE Fellow,IEEE通信学会杰出讲者,汤森路透计算机科学领域全球高被引科学家。


黄教授长期专注于网络通信、网络经济学和群体智能交叉领域的开创性研究,其特色是通过融入经济学理论给出网络中资源分配和优化的解决方案。他已发表7部学术专著和300余篇国际一流期刊和会议论文,被谷歌学术引用超过14890 次,H-index为 61,9篇论文入选ESI高引论文,1篇文章入选ESI热点论文。他的论文10次获得国际会议和期刊的最佳论文奖,连续于2016、2017年入围科睿唯安(原汤森路透)全球高被引科学家榜(即发表的ESI高引论文数在计算机领域排名全球前1%),2021年入选斯坦福大学评选的“世界前2%顶尖科学家”,2022年入选爱思唯尔“中国高被引学者”。


黄建伟教授长期活跃于IEEE通信学会,现任IEEE Transactions on Network Science and Engineering(JCR Q1)的主编(Editor-in-Chief)。曾先后担任IEEE Open Journal of the Communications Society的副主编(Associate Editor-in-Chief),IEEE Communications Society Technology News 副主编(Associate Editor-in-Chief)。


参考文献



[1] Chenyou Fan, Junjie Hu, Jianwei Huang. "Private Semi-Supervised Federated Learning." 31st International Joint Conference on Artificial Intelligence (IJCAI-2022).


[2] Zhi-Hua Zhou and Ming Li. Semi-supervised learning by disagreement. Knowledge and Information Systems, 2010.


[3] Hongyi Zhang, Moustapha Cisse, Yann N.Dauphin, and David Lopez-Paz. MixUp: Beyond empirical risk minimization. In ICLR, 2018.


[4] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin Raffel. Mixmatch: A holistic approach to semi-supervised learning. In NeurIPS, 2019.


[5] Cynthia Dwork and Aaron Roth. The Algorithmic Foundations of Differential Privacy. 2014.





点击以下链接,进入理工时刻:


说专业,话未来|理工学院电子与计算机工程专业解读


说专业,话未来|理工学院数学与应用数学专业解读


相遇在未来・访谈录|理工校友在ETH Zurich


喜讯 | 理工学院/未来智联网络研究院/深圳市大数据研究院崔曙光教授当选IEEE移动计算期刊(TMC)主编


报名通知 | 香港中文大学(深圳)理工学院2022年全国优秀大学生夏令营


香港中文大学(深圳)通信工程硕士2022年全国优秀大学生夏令营活动报名开始


理工学院创新作坊2022夏令营招生 | SSE Maker Lab 2022 Summer Camp Recruitment


毕业活动回顾 | 定格青春记忆,奏响毕业骊歌


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存